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Menetelma ja laitteisto tiedon uudelleenryhmittelemiseksi - Metod och appara- 
tur for att regruppera data 



Keksinto koskee sellaisten saantojen muodostamismenetelmaa, jonka avulla tietoa 
5 voidaan ryhmitella uudelleen. Lisaksi keksinto koskee jarjestelya tallaisen menetel- 
man toteuttamiseksi. 

Tietoa on saatavilla valtavasti, koska sahkoista dataa kokoavia, tehokkaita laitteita 
on paljon ja tallennuskapasiteetti on kasvanut. Sahkoiseen dataan paasee helposti 
kasiksi, nmtta oleellisen tiedon loytaminen onkin jo vaikeampaa. On olemassa tek- 

10 niikoita, joiden avulla voidaan ennakoida ja arvioida datan sisaltoa. Yleensa halu- 
taan loytaa voimassaolevaa, uutta, kayttokelpoista, ymmarrettavaa tietoa. Ongelmia 
ilmenee esimerkiksi, jos data on epataydellista tai epayhtenaista. Data voi myos olla 
valiaikaista tai muuttuvaa, sita voi olla suunnaton maara kasiteltavaksi tai se voi olla 
muutakin kuin tekstimuotoista. Suuresta datamaarasta pitaisi loytaa tiettyyn yrityk- 

15 seen tai tiettyyn ongelmaan liittyva spesifinen tieto. 

Eri lahteista loytyvaa tietoa on tarpeen myos yhdistaa ja vertailla. Jotta epayhtenais- 
ta tietoa voidaan analysoida, on tieto saatettava yhtenaiseen muotoon. Lisaksi yhte- 
naistamista edellyttaa yritysten sisainen ja yritysten kesken tapahtuva tiedonkulku ja 
-vaihto. Nykyaan persoonallisuus on tarkea erottautumiskeino markkinoilla. Persoo- 

20 nalliset ratkaisut kuitenkin eroavat niin sanotuista standardiratkaisuista ja vaikeutta- 
vat siten tiedon jatkokasittely a. Dokumentit tulisikin esittaa niin joustavasti, etta ne 
soveltuvat ja ovat yhdistettavissa mahdollisimman moniin muihin sovellnksiin 
Yleensa yksittainen yksilollinen ratkaisu vaatii tehokkaat laitteet hoitamaan yhteyk- 
sia. Yhteyksista huolehtivien laitteiden ja ohjelmistojen on oltava helppokayttoisia 

25 ja niiden on kasvettava yrityksen mukana. Tallaisen laitteistokokonaisuuden yllapito 
ja ohjelmointi kaikki standardit ja vaatimukset huomioon ottaen on hyvin raskasta. 

On olemassa ratkaisuja, jotka yhtenaistavat erinaisia tiedostoformaatteja samaan, 
kasiteltavaan muotoon. Esimerkiksi XWrap Elite (an extensible Wrapper Generati- 
on System Elite Version) on ohjelmistosovellus, joka pyrkii tunnistamaan toistuvat 
30 tietorakenteet HTML-dokumenteista ja luomaan niille kullekin muunnossaannot, 
joilla niiden sisalto saadaan muunnettua XML-kielelle. Sovelluksen toiminta on 
kuitenkin sidottu HTML-rakenteeseen. XWrap Elite-ohjelmistoa on ennen taman 
hakemuksen prioriteettipaivaa kuvattu yksityiskohtaisemmin osoitteessa 
http://www.cc.gatech.edu/projects/disl/XWRAPEl^ Vastaavanlainen HTML- 
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rakenteeseen pohjautuva ratkaisu on myos W4F - World Wide Web Wrapper Facto- 
ry, jota on ennen taman hakemuksen prioriteettipaivaa kuvattu tarkemmin osoittees- 
sa http://www.tropea-inc.com/technologyAV4F/. Lisaksi Xeroxin Euroopan tutki- 
muskeskuksessa on kevaalla 2000 julkistettu tiedon muunnosskriptin generointime- 
5 netelma, Wrapper Generation via Grammar Induction, joka on myos sidottu HTML- 
formaattiin. Tama menetelma on ennen taman hakemuksen prioriteettipaivaa julkais- 
tu osoitteissa http://tiiring.wins.uva.ny~ra^ ja 
http://turing.wins.uva.ny-ragetli/ecml2000/ecnd00a^ Kaikki nama mainitut, ole- 
massa olevat ratkaisut perustuvat HTML-formaattiin, joten niiden kayttoalue on 
10 melko rajoitettu. Aiheesta on olemassa myos patentti US6151608, jossa kuvataan 
tiedon muuntamista tietokantataulukkoon koodia kirjoittamatta. 

Keksinnon tavoitteena on tuottaa menetelma ja jarjestely, joilla ohjelmointitaido- 
tonkin kayttaja voi muodostaa mista hyvansa sahkoisesta tietovirrasta valitsemilleen 
data-alueille irrotussaannoston. Saannoston avulla etsitaan ja irrotetaan data-alueita 
15 lahdedatasta. 

Tavoite toteutetaan asteittain oppivan koodingenerointisovelluksen avulla. 

Keksinnon mukaisesti kayttaja saa koodia kirjoittamatta valitunlaiset data-alueet 
erotettua lahdedatasta jatkokasittelya varten. 

Koodingenerointisovellus voi kayttaa tiedon esittamiseen ja valintojen tekemiseen 
20 datavirrasta mita tahansa selainta. Selaimella tarkoitetaan tassa sellaista tiedon tar- 
kasteluvalinetta, jonka esittamaan tietoon voidaan kohdistaa valintoja. Jos kyseessa 
on esimerkiksi HTML- tai tekstiselain, voidaan yhtenainen jatkuva alue valita perin- 
teisesti "hiirella maalaamalla". Kayttaja toimii selaimelle ominaisessa ymparistossa, 
eika tarvitse valttamatta lainkaan koodingenerointisovelluksen tuottamaa tiedon ir- 
25 rottamiseen kaytettavaa lahdekoodia. Kayttajalla on olemassa dataa, jotka han jat- 
kokasittelya varten haluaa eritella tietyin osin ja/tai yhtenaistaa. Nyt kayttajan tarvit- 
see vain osoittaa koodingenerointiohjelmalle haluamastaan lahdedatasta kaksi tai 
useampia esimerkkeja. Esimerkit voidaan nayttaa myos eri lahdedatoista. 

Kayttaja antaa ohjelmalle esimerkkitapaukset, joiden perusteella ohjelma osaa irrot- 
30 taa lahdedatasta tietyt rakenneosaset. Lahdedatasta kayttaja osoittaa koodingene- 
rointiohjelmalle tietyt osaset, joiden mallin mukaan ohjelma muodostaa saannoston. 
Saannoston perusteella koodingenerointiohjelma etsii ja irrottaa tietoa lahdedatasta. 
Kayttaja voi taman jalkeen esimerkiksi yhtenaistaa epayhtenaista dataa samaan for- 
maattiin. Kayttajan antamien esimerkkien tulisi olla sisalloltaan mahdollisimman 



erilaisia tapauksia samantyyppisen, tunnistettavan tietorakenteen osasta. Ne voivat 
olla vaikkapa taulukon riveja, luettelon alakohtia tai lomakkeita. 

Koko sahkoisesta tietotulvasta kayttaja siis valitsee halutut datalahteet tai halutut 
osat datalahteista ja osoittaa ne syotteena koodingenerointiohjelmalle. Taman tulok- 
5 sena kayttaja saa lahteisiin perustuvan tiedon jarjestettyna seka tuotetun irrotussaan- 
noston. Tulosdata voidaan esittaa myos halutussa formaatissa, jonka kayttaja voi jo- 
ko maarittaa itse tai valita valmiista esimerkkimaarityksista. Lisaksi ohjelma esittaa 
valitut piirteet helposti tarkasteltaviksi. 

Seuraavassa selostetaan keksintoa yksityiskohtaisemmin viitaten esimerkkina esitet- 
10 tyyn edulliseen suoritusmuotoon ja oheisiin kuviin, joissa 

kuva 1 esittaa keksinnon perusperiaatetta, 

kuva 2 esittaa eraan edullisen sovellusmuodon mukaista muxinnosskriptin luomis- 
taja 

kuva 3 esittaa eraan edullisen sovellusmuodon mukaista tokenisoitujen esimerkki- 
15 en kasittelya. 

Hajanaisia, eri muodoissa olevia dokumentteja ja tiedostoja on usein tarpeen yhte- 
naistaa, jotta niita voidaan jatkokasitella. Yhtenaistaminen on tarkeaa yritysten vali- 
sia asioita kasiteltaessa, koska on kaytannossa mahdotonta vaatia, etta kaikki yhteis- 
tyo- tai asiakassuhteessa toimivat yritykset yhtenaistaisivat tietojarjestelmansa ja 
20 ohjelmistonsa. Yhtenaistettavyys tietojen kasittelyssa helpottaa paitsi yritysten si- 
saista tiedonkasittelya, erityisesti julkaisu- ja yhteistyoverkostojen toimintaa. On 
oleellista, etta sahkoisesta informaatiotulvasta voidaan valita itselle tarkeat alueet ja 
etta naita osioita voidaan tarkastella, vertailla ja kasitella edelleen yhtenaisena ko- 
konaisuutena. 

25 Kuvassa 1 on esitetty keksinto paapiirteissaan. Koodingenerointisovellus on datan 
erotteluun, jarjestamiseen ja yhtenaistamiseen sovitettu tyokalu. Koodingenerointi- 
sovellus kasittaa kolme osaa: koodingenerointikomponentin 102, muodostettavat ir- 
rotussaannot 103 seka irrotuskomponentin 104. Lahdemateriaali 101 voi olla mita 
hyvansa tietoteknista materiaalia, kuten esimerkiksi tiedostoja, dokxunentteja tai jat- 

30 kuvaa tietovirtaa. Ainoa edellytys lahdeformaatille on, etta valittomasti jokaisen 
automaattisesti irrotettavaksi halutun tietokentan edella tai jalkeen on oltava vahin- 
taan yhden kasiteltavan datan perusyksikon eli tokenin mittainen kenttaerotin, joka 
toistuu samanlaisena kaikissa tietueissa juuri ennen kyseista tietokenttaa tai valitto- 
masti sen jalkeen. Itse irrotettava tietue voi kuitenkin sisaltaa erilaisia kenttaerotti- 
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mia. Kayttaja valitsee koko lahdemateriaalin tai tiettyja lahdemateriaalin osia, data- 
alueita. Naiden valittujen data-alueiden tietorakenteen tulee olla littea eli tietoraken- 
teessa ei saa esiintya eri hierarkiatasoja. Tallainen littea tietorakenne on esimerkiksi 
taulukolla tai listalla. Jos kayttaja haluaa kasitella vain tiettya osaa tietorakenneyksi- 
5 kosta, vaikkapa taulukkoa, hanen tulee antaa koodingenerointisovelluksen koodin- 
generointikomponentille 102 esimerkkina vahintaan kaksi sellaista taulukon rivia, 
jotka eroavat toisistaan mahdollisimman paljon. Mita enemman esimerkit poikkea- 
vat toisistaan, sita vahemman esimerkkeja tarvitaan toivotunlaisen irrotustuloksen 
aikaansaamiseksi. Valittujen esimerkkirivien mahdollisimman monessa sarakkeessa 
10 tulee siis olla eri tietoa. 

Koodingenerointisovelluksen irrotussaannot tuottava komponentti 103 muodostaa 
esimerkkien perasteella saannoston, jonka perusteella irrotuskomponentti 104 etsii 
ja irrottaa halutunlaisia data-alueita lahdemateriaalista 101. Varsinainen irrotuskom- 
ponentti voi olla mika hyvansa asiaan soveltuva komponentti. Irrotuksen tuloksena 

15 saadut data-alueet voidaan jatkokasitella halutulla tavalla, esimerkiksi tallentaa. Mi- 
kali ne tallennetaan tiettyyn yhteen kohteeseen, kayttaja saa dokumentin 105, joka 
voi olla kaytannossa millainen hyvansa riippuen kayttajan valinnoista ja alkuperai- 
sista lahdedatoista. Alkuperainen dokumentti sailyy muuttumattomana. Tuotettu tu- 
los sisaltaa kayttajan syottamien esimerkkien mukaiset data-alueet, esimerkiksi 

20 kaikki taulukon rivit, kayttajan maarittamassa muodossa ja jarjestyksessa. Kayttaja 
voi maarittaa itse esimerkiksi kohdeformaatin muutaman parametrin avulla taLvalita 
valmiista, olemassa olevista formaateista. Jos kayttaja valitsee valmiin formaatin, 
formaatti maaritetaan esimaariteltyjen parametrien avulla. Saatavaa kohdedataa 
varten kayttaja voi maaritella myos kenttien jarjestyksen ja/tai jattaa haluamansa 

25 tietokentat kokonaan pois kaytosta. 

Sita osaa lahdedatasta, joka valitaan muunnettavaksi, kutsutaan data-alueeksi. 
Tyypillisesti data-alue on jokin alue, jonka sisalla toistuu vain yksi tietorakenne. 
Data-alue voi olla esimerkiksi taulukko, joka siis sisaltaa taulukossa toistuvat rivit. 
Data-alue voi myos olla esimerkiksi kappale tekstia, otsikko tai luettelo. Data-alueet 

30 voivat olla keskenaan taysin erilaisia, mutta kunkin data-alueen sisalla toistuu yksi 
saannollinen tietorakenne. Tama toistuva tietorakenne on helposti osoitettavissa 
koodingenerointisovellukselle ja edelleen koodingenerointisovelluksen loydettavissa 
ja erotettavissa lahdedatasta. Taulukossa tallainen toistuva ominaisuus olisi esimer- 
kiksi tietosisallon jarjestaytyminen riveihin ja/tai sarakkeisiin. Tekstikappaleita 

35 puolestaan ryhmittelee yleensa niiden alussa ja lopussa olevat tyhjat tilat ennen seu- 
raavan osion alkua. Otsikko on varustettu tietyilla tunnistettavilla ominaisuuksilla, 
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kuten esimerkiksi lihavoinnilla ja/tai tekstin sijoittelulla. Luettelo sisaltaa yleisesti 
jonkin tunnistesymbolin, esimerkiksi viivan tai laatikon ennen varsinaista asiasisal- 
toa ja rivinvaihdon sen jalkeen. Oleellista siis on, etta on olemassa jokin tietyille 
osioille yhteinen tietorakenne, jonka koodingenerointisovellus loytaa kayttajan an- 
5 tamien esimerkkien avulla. 

Data-alueita voidaan jakaa osiin myos sisallon perusteella. Naita vaihtelevan tai 
kiintean pituisia yksikoita kutsutaan tokeneiksi. Menetelmaa, jonka avulla merkkijo- 
noja jaetaan osiin sisallon perusteella, kutsutaan tokenisoinniksi. Yksi tokeni sisal- 
taa tyyppimerkinnan eli nimen seka itse datasisallon. Oletuksena on, etta yksi tokeni 

10 eli kasittelyn yksikko on yksittainen merkkijarjestelman symboli, kuten kirjain, nu- 
mero tai valimerkki. Usein osoittautuu kuitenkin kannattavammaksi maaritella to- 
kenit siten, etta yksi tokeni sisaltaa tietyn datassa toistuvan merkkijonon. Tokeni- 
tyypit ovat siis eraanlaisia yleistyksia. Esimerkiksi "numero"-tyyppisia tokeneja 
ovat kaikki numerot, jos tokenityypin saannollinen lauseke on "[0-9]" tai jos "sana"- 

15 tyyppisen tokenin saannollinen lauseke on "[A-Za-z]+", tokeni voi sisaltaa yhden tai 
useamman perakkaisen merkin valilta A - Z tai a - z. On myos mahdollista yksiloi- 
da, etta esimerkiksi vain ja ainoastaan merkkijono "B2B" on "test2"-tyyppinen to- 
keni. Tokenisoidut merkkijonot ovat helpommin hallittavissa kuin yksittaiset sym- 
bolit 

20 Tokenisointi helpottaa ja nopeuttaa datan kasittelya. Kaytetyn tokenisoinnin ansios- 
ta nyt kyseessa oleva sovellus ei ole sidottu mihinkaan tiettyyn formaattiin, vaan 
riittaa, etta irrotettavaksi valitun tietokentan edella tai sen jalkeen on vahintaan yh- 
den tokenin mittainen kenttaerotin. Tokenisointi siis monipuolistaa ja nopeuttaa 
koodingenerointisovelluksen kayttoa, silla vahainenkin pohjatieto kasiteltavasta 

25 formaatista tokeni sointimaaritykseksi kirjoitettuna mahdollistaa parempiin irroitus- 
saantdihin paasemisen pienemmilla esimerkkimaarilla. Vastaavasti virheellisen to- 
kenisoinnin kaytto voi johtaa siihen, ettei algoritmi pysty tuottamaan ollenkaan 
toimivia irrotussaantoja. Tokenisoimalla data ja suorittamalla taman jalkeen kaikki 
kasittelyoperaatiot tokenisoituun dataan voidaan varmistaa koodingenerointisovel- 

30 luksen oikeanlainen toiminta. Tokenisointia hyvaksikayttaen saavutetaan myos kul- 
loiseenkin tilanteeseen sopiva tarkkuus lahdemateriaalin tarkastelulle. Tassa keksin- 
nossa tokenisointi on apuvaline irrotussaantqjen generoinnissa, mutta saantqja tul- 
kitseva tiedon irrotuskomponentti ei enaa tieda tokenisoinnista mitaan, eika kayta 
sita mihinkaan. 

35 Kayttaja osoittaa koodingenerointisovellukselle esimerkit. Esimerkkien osoittamisel- 
la tarkoitetaan tassa, etta kayttaja osoittaa esimerkit olemassa olevasta datasta ja/tai 
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tuottaa esimerkit itse ja/tai muokkaa olemassa olevia esimerkkitapauksia korostaak- 
seen niiden yhtenevia osia. 

Kayttajan koodingenerointisovellukselle antamien esimerkkien tulisi olla mahdolli- 
simman erisisaltoiset ei-yhtenevilta osiltaan, jotta koodingenerointisovellus yksise- 
5 litteisesti loytaisi esimerkkitapausten yhtenaiset osat, joita se kayttaa luodessaan 
datanirrotussaannostoa. Koska esimerkkien on oltava mahdollisimman erilaiset si- 
salldltaan, tokenisoinnin avulla mahdollistetaan tietynlaisten datalahteiden kaytto. 
Esimerkiksi HTML-tiedosto voidaan jakaa tageihin ja niiden valisiin tekstipaloihin. 
Jos HTML-formaattia kasiteltaisiin ilman tokenisointia, eli oletusarvoisesti yksi 

10 symboli muodostaisi yhden tokenin, esimerkkien osoittaminen koodingenerointiso- 
vellukselle olisi tydlasta, jollei mahdotonta. Kayttajalta kuluisi kohtuuttomasti aikaa 
sopivien esimerkkien loytamiseen, koska naiden sisaltojen tulisi olla symbolitasolla 
taysin erilaiset. Esimerkkitiedon yksiloimiseksi tarvittaisiin siis hurjan paljon esi 
merkkeja tai sitten niiden laatua tulisi voida oleellisesti parantaa. Tama laadun pa- 

15 rannus tehdaan nimenomaan tokenisoimalla: kxm HTML-formaatin mukainen data 
on tokenisoitu tageiksi ja niiden valiin jaaviksi merkkijonoiksi, yhdenkin yksittaisen 
symbolin ero merkkijonojen sisalla riittaa ilmaisemaan koodingenerointisovelluksel- 
le, etta alue halutaan irrottaa ja sailyttaa yhtenaisena. 

Tassa tekstissa yksittaisesta merkkijarjestelman merkista kaytetaan nimitysta "sym- 
20 boli". Useammasta perakkaisesta symbolista kaytetaan kuitenkin nimitysta "merkki- 
jono". Mainitut irrotettavien data-alueiden alku- ja loppumerkit eivat ole yksittaisia 
symboleja, vaan merkkijonoja tai saannollisia lausekkeita. Jokerimerkkikaan ei valt- 
tamatta ole vain yksi merkki (*), vaan sita voi vastata jokin merkkijono (esimerkiksi 
.*) jarjestelmasta, ohjelmointikielesta ja sovelluksesta riippuen. 

25 Koodingenerointisovelluksen kayttaja voi halutessaan itse maaritella tokenisointi- 
saannot. Yleensahan tokenisointisaannot valitaan valmiista asetuksista, joista esi- 
merkkina HTML-kieleen sopivasta tagien ja niiden valiin jaavien merkkijonojen 
erittely. Kayttaja voi myos muokata valmiita tokenisointisaantoja. 

Esimerkkina esimerkkitapausten erilaisuudesta voidaan tarkastella tilannetta, jossa 
30 esimerkkitapauksia on nelja ja kukin niista koostuu kolmesta perakkaisesta kentasta. 
Se, etta kussakin esimerkkitapauksessa on kolme kenttaa, tarkoittaa, etta esimerkki- 
tapauksilla on samanlainen rakenne. Sisallon erilaisuus tarkoittaa, etta jos tarkastel- 
laan yhdessa kaikkien esimerkkitapausten ensimmaisia (tai toisia, tai kolmansia) 
kenttia, ne eivat ole kaikissa esimerkkitapaxiksissa samat. On kuitenkin sallittua, etta 
35 vaikkapa ensimmaisen esimerkkitapauksen ensimmainen kentta on sama kuin toisen 
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ja kolmannen esimerkkitapauksen ensimmainen kentta, kunhan neljannen esimerkki- 
tapauksen ensimmainen kentta on sisalloltaan erilainen. 

Koodingenerointisovellus tallentaa kayttajan syottamat esimerkit, joten esimerkkeja 
voidaan lisata yksi kerrallaan valiten niita eri lahteista. Tyypillisesti myos irrotus- 
5 saannot tallennetaan, jolloin samoja, tallennettuja saantoja voidaan kayttaa myo- 
hemminkin tarvitsematta generoida niita uudelleen. 

Kayttajan lahdedatasta valitsema esimerkki on merkkijono. Tallaisen irrotettavan 
merkkijonon edella tai sen jalkeen on oltava vahintaan yhden tokenin mittainen 
kenttaerotin, joka toistuu samanlaisena kaikissa tietueissa. Tietueen sisalla kentta- 

10 erottimien ei kuitenkaan tarvitse olla samoja. Tietorakenteen perusteella irrotettavis- 
sa olevat kentat paikallistetaan ja yksiloidaan, eli kentille annetaan jarjestysnumero. 
Tietokenttien rajat maaraytyvat kulloinkin kaytettavan tokenisoinnin mukaisesti. 
Kayttajan antamien esimerkkien perusteella koodingenerointisovellus muodostaa 
editointiskriptin (edit script). Editointiskriptissa luetellaan ne muutokset, joilla en- 

15 simmaisen syotetyn esimerkkitapauksen sisalto saadaan samaksi kuin toisen esi- 
merkkitapaxiksen sisalto. Editointiskriptissa toistuva perusyksikko on muutostieto 
Tama muutostieto sisaltaa indeksiosoittimet molempiin merkkijonoihin seka korvat- 
tavan ja korvaavan tiedon kokonaisuudessaan. Kohdistamalla maaratylla tavalla 
editointiskriptien muutokset pisimpaan syotettyyn esimerkkilausekkeeseen, jota kut- 

20 sutaan saannolliseksi lausekkeeksi, muodostetaan tuloksena saadun saannollisen 
lausekkeen avulla irrotusskripti, joka sitten etsii lahdedatasta merkkijonoa syotetie- 
tojen perusteella. Edelleen irrotusskriptin mukaiset tietyt, valitut data-alueet irrote- 
taan lahdedatasta jatkokasittelya varten. 

Vaikka esimerkit koodingenerointisovellukselle naytettaisiin tiedostoista, varsinai- 
25 nen tiedon irrotus generoitujen saantpjen avulla voidaan tehda tiedostojen lisaksi 
myos esimerkiksi jatkuvasta, paattymattomasta tai tuntemattoman pituisesta tietovir- 
rasta. Irrotettavan data-alueen pituus tiedetaan siis vasta siina vaiheessa, kun tieto- 
virrasta tai erillisessa kontrollivirrasta loydetaan jokin ennaltamaaratty lopetus- 
merkki. 

30 Kun kayttaja on valinnut esimerkkitapaukset, han voi testata yksittaisen data-alueen 
irrotussaantdjen toimintaa esikatselu-tilassa koodingenerointisovelluksen selaimes- 
sa. Jos kayttaja havaitsee, etta ennen hanen esimerkiksi tarkoittamaansa data-aluetta 
on jotain ylimaaraista dataa, kayttaja voi maaritella data-alueen alku- ja loppumerkit 
tai yrittaa tasmentaa olemassa olevia. Kayttajan tulee valita ennen toivottua irrotet- 

35 tavaa data-aluetta edeltava merkkijono siten, etta se olisi mahdollisimman yksiselit- 
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teinen ja tasmallinen kertomaan sovellukselle, etta juuri tallaisen tietyn merkkijonon 
jalkeen tulevaa dataa lahdemateriaalista halutaan irrottaa. Nain kayttaja voi esikatse- 
lu-tilassa tarkistaa, etta valittujen esimerkkitapausten tyyppista tietoa irrotetaan oi- 
keilta alueilta. Vastaavasti voidaan varmistaa sovelluksen toiminta data-alueen lop- 
5 pumerkin osalta. 

Esimerkit voidaan myos syottaa taysin erillisina vaikkapa suoraan nappaimistolta. 
Kertaalleen osoitettuja esimerkkeja on mahdollista muuttaa: jos kayttaja huomaa 
yhden kokeilun jalkeen, ettei kahden esimerkin valilla ollut riittavaa sisallollista 
eroa, han voi lisata eroja syottamalla ainakin toiseen esimerkkiin joitain sellaisia 
10 symboleja, joita toisessa ei ole. 

Koodingenerointisovelluksen selaimen ominaisuuksista riippuu, nakyvatko data- 
alueen alku- ja loppumerkkeja kuvaavat merkkijonot kayttajalle suoraan lahdedatas- 
ta ja/vai korostetaanko niiden valinen alue selkeasti havaittavaksi. Tarkoitushan on, 
etta lahdemateriaalin alusta lahtien ensimmainen loydetty alkua tarkoittava merkki- 

15 jono on irrotettavaksi haluttua data-aluetta edeltava kohta. Alkumerkista eteenpain 
lahdemateriaalista etsitaan loppumerkkia, johon irrotettava data-alue paattyy. Jos 
data-alueen alku- tai loppumerkki puuttuu eli on tyhja, koodingenerointisovellus 
tulkitsee irrotettavan data-alueen aluksi lahdemateriaalin alun ja vastaavasti irrotet- 
tavan data-alueen lopuksi lahdemateriaalin lopun. Data-alue-maaritys on siis aina 

20 olemassa, eika se ole millaan tavoin riippuvainen lahdemateriaalin formaatista, ra- 
kenteesta tai sisallosta. Kayttaja voi myos muokata tiedon irrotussaannoston ohjcl 
makielista koodia, jos esimerkiksi sopivia esimerkkeja ei loydy riittavasti. 

Jos kayttaja haluaa tuloksena tiedon yhtenaisessa muodossa, kayttaja voi maaritella 
kohdeformaatin muutamalla parametrilla tai valita jonkin valmiin, kuten esimerkiksi 

25 XHTML-taulukon, pohjaksi. Halutessaan kayttaja voi siis maarittaa, missa muodos- 
sa j a milla lisamerkinnoilla varustettuina irrotetut tietueet kirjoitetaan kohteeseen. 
Jos tuloksena saatavaa kohdedataa halutaan kasitella esimerkiksi XML-selaimella, 
voidaan valmiiksi maarittaa tiettya lahdemateriaalista irrotettua osaa ymparoivat 
tagit, jotta tuleva kohdedata on heti havainnollisemmassa ja helpommin kasiteltavas- 

30 sa muodossa. Seuraavassa on esimerkkina XML-formaatin mukaisia tageja ja niiden 
valissa se lahdemateriaalin osa, jonka tagit ymparoivat: 
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<datastream>koko kohdedata</datastream> 
<dataarea>data-alue</dataarea> 
<record>tietue</record> 
<field>kentta</field> 
5 <address>kentta</address> 
<price>kentta</price>. 

Data-alueella tarkoitetaan siis esimerkiksi tauluja tai taulukoita, joista kukin sisaltaa 
yhden tai useampia tietueita eli taulun/taulukon riveja, joista kukin sisaltaa yhden tai 
useampia kenttia eli taulun/taulukon rivien soluja/sarakkeita. 

10 Keksinto ei sinansa edellyta, etta irrotetut tietueet tallennetaan johonkin tiettyyn 
yhteen kohteeseen yhtenaisessa formaatissa. Kun tieto on irrotettu lahteesta, sita 
voidaan jatkokasitella monin tavoin. Esimerkkeja mahdollisesta jatkokasittelysta 
ovat irrotetun tiedon antaminen jollekin toiselle ohjelmistokomponentille tai laitteel- 
le, irrotetun tiedon lahettaminen eteenpain esimerkiksi verkkoyhteytta pitkin ja irro- 

15 tetun tiedon osittainen tai taydellinen havittaminen. Irrotetut data-alueet ja/tai niiden 
osat (tietueet, kentat) voidaan irrotuksen jalkeen jarjestaa uudelleen erilaisiin jarjes- 
tyksiin joko ennen niiden jatkokasittely a tai osana jatkokasittelya. 

Tarkastellaan yksityiskohtaisemmin koodingenerointisovelluksen toimintaa ja 
muunnosskriptin tuottatnista yhden data-alueen osalta kuvan 2 avulla. Koodingene- 

20 rointisovellukselle osoitetaan syotteena lista data-aluemaarityksia, joista jokainen si- 
saltaa vahintaan kaksi esimerkkia ja merkkijonon tai saannollisen lausekkeen valitun 
data-alueen alkamis- ja paattymiskohdan tunnistamiseksi. Tietorakenne-esimerkkien 
sisalle ei tarvitse erikseen laittaa mitaan aloitus- tai lopetusmerkkeja. Aluksi kohdas- 
sa 201 tokenisoidaan kaikki kayttajan syottamalla esimerkkilistalla olevat esimerkit. 

25 Kuvan algoritmi ei tarvitse data-alueiden alku- ja loppumaarityksia esimerkkien 
kasittelyyn, vaan se yksinkertaisesti lisaa data-alueen rajaamiseksi tarvittavat, val- 
miina saamansa tiedot irrotusskriptiin. 

Seuraavaksi 202 esimerkit jarjestetaan tokenimaaraisesti laskevaan pituusjarjestyk- 
seen. Kohdassa 203 listan ensimmainen ja siis pisin esimerkki kopioidaan ja se 

30 maaritetaan saannolliseksi lausekkeeksi R. Taman jalkeen kasitellaan listan seuraa- 
vaa esimerkkilausetta 204. Seuraavaa, toiseksi pisinta lausetta merkitaan esimerkki- 
lausekkeella E. Kohdassa 205 verrataan saannollista lauseketta R esimerkkilausek- 
keeseen E kayttamalla sinansa tunnettua Diff-vertailualgoritmia, jonka tarkempi ku- 
vaus ennen taman hakemuksen prioriteettipaivaa loytyy osoitteesta 

3 5 http://www.cs.arizona.edu/people/gene/PAPERS/difF.ps. Tama vertailualgoritmi 
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palauttaa lyhimman mahdollisen editointiskriptin D eli saannollisen lausekkeen R ja 
esimerkkilausekkeen E valisen muutostiedon. Jos toteutetaan editointiskriptin D si- 
saltamat muutokset saannolliselle lausekkeelle R, saadaan esimerkkilause E. 

Keksinto ei sinansa edellyta nimenomaan tunnetun Diff-algoritmin kayttoa, vaan sen 
5 tilalla voidaan kayttaa mita tahansa sellaista vertailevaa algoritmia, joka palauttaa 
editointiskriptia vastaavat ohjeet siita, miten tietysta kohteesta saadaan lyhimmalla 
mahdollisella tavalla muuntamalla tietty toinen kohde. Jos on olemassa vahintaan 
kaksi lyhinta mahdollista tapaa, keksinnon kannalta ei ole valia silla, mika naista ta- 
voista valitaan. Lyhin mahdollinen tapa tarkoittaa, etta ns. editointietaisyys eli tar- 
10 vittavien muutosten lukumaara muunnettaessa lahdetta kohteeksi on mahdollisim- 
man pieni. 

Seuraavaksi 206 luetaan Diff-vertailualgoritmin palauttamasta editointiskriptista D 
muutosoperaatiot yksi kerrallaan. Editointiskriptia D ja saannollisen lausekkeen R 
sisaltamia tokeneja vertaillaan keskenaan 207. Saannollista lauseketta R muutetaan 
15 siten, etta ne tokenit, joihin D:sta luettu muutostieto viittaa, merkitaan jokerimerkil- 
la, jolloin jaljelle jaavat alkuperaisina vain R:n muuttumattomat tokenit. Seuraavaksi 
tutkitaan, onko kaikki D:n muutosoperaatiot jo lapikayty. Jos muutosoperaatioita on 
viela lukematta, palataan kohtaan 206. Jalleen tokenit, joihin muutostieto kohdistuu, 
merkitaan saannollisessa lausekkeessa R jollain tietylla jokerimerkilla (*-wildcard). 

20 Kohdassa 209 tarkastetaan, onko esimerkkilistalla viela lisaa esimerkkilausekkeita. 
Kaikki listan esimerkit kaydaan yksi kerrallaan lapi eli jos lisaesimerkkeja loytyy, 
jatketaan kohdasta 204. Mikali kaikki esimerkkilausekkeet on jo kasitelty, edetaan 
kohtaan 210 ja poistetaan tuotetusta saannollisesta lausekkeesta perakkaiset jokeri- 
merkit siten, etta vain ensimmainen niistajaa jaljelle. Seuraavaksi saannollinen lau- 

25 seke R muunnetaan osaksi muunnosskriptia 211. Alun perin (ennen tata vaihetta) 
muunnosskripti on tyhja. Tuotettava muunnosskripti etsii lahdemateriaalista merkki- 
jonoja syottotietojen perusteella. Kun saannollisessa lausekkeessa on jokerimerkki, 
lahdemateriaalista etsitaan se merkkijono, joka saannollisessa lausekkeessa on joke- 
rimerkin jalkeen. Jokerimerkki tavallaan korvaa pienimman mahdollisen maaran 

30 mita hyvansa lahdemateriaalin merkkeja siihen merkkijonoon asti, joka saannolli- 
sessa lausekkeessa esiintyy jokerimerkin jalkeen. Tallaista jokerimerkki tulkintaa 
nimitetaan usein reluctant-tulkinnaksi. 

Muunnosskriptin eteen lisataan viela kohdan 212 mukaisesti koodi, jolla yksi data- 
alue kokonaisuutena irrotetaan lahdedatasta. Taman lahdedatan sisaltoa koodingene- 
35 rointisovellus tassa esimerkissa kasittelee ja muuntaa halutut osat siita kohdefor- 
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maatin mukaisiksi. Taman jalkeen muunno s skrip tiin voidaan viela lisata taman esi- 
merkin mukaisesti kayttajan mahdollisesti antamat tai ennaltamaaritetyt parametria 
jotka maarittavat kohdeformaatin. Koodingenerointisovellus siis tuottaa muunnos- 
skriptin, joka irrottaa kaiken data-alueilla esiintyvan annettuihin tietorakenne-esi- 
5 merkkeihin tasmaavan tiedon jatkokasittelya varten, joka tassa esimerkkitapauksessa 
on konvertointi yhtenaiseen kohdeformaattiin. 

Eras vaihtoehto muunnosskriptiii automaattiselle muodostamiselle kohtien 211 ja 
212 mukaisesti on jatkaa kohdasta 210 siten, etta muodostettu saannollinen lauseke 
R otetaan talteen ja kasitellaan muulla tavoin kuin liittamalla se osaksi muunnos- 
10 skriptia. Se voidaan esimerkiksi kayttaa "manuaalisesti" uudelleen jonkin toisen 
ohjelmatuotteen osana tai sita voidaan soveltaa pelkkana iiTotusskriptina tekematta 
konvertointia kohdeformaattiin. 

Tarkastellaan viela kuvan 3 avulla saannollisen lausekkeen muodostamista. Tassa 
esimerkkitapauksessa kayttaja on osoittanut koodingenerointisovellukselle kolme 

15 esimerkkilauseketta, jotka on tokenisoitu. Kaksi pisinta esimerkkilauseketta koostuu 
8 tokenista ja lyhin esimerkkilauseke 6 tokenista. Saannolliseksi lausekkeeksi R 301 
merkitaan pisin esimerkkilauseke eli tassa tapauksessa kumpi hyvansa pidemmista 8 
tokenin esimerkkilausekkeista. Jaljelle jaanyt pisimmista esimerkkilausekkeista 
merkitaan E:ksi 302. Lausekkeet R ja E osoitetaan parametreina tunnetulle Diff-ver- 

20 tailualgoritmille, joka palauttaa editointiskriptin D 303. Nyt editointiskriptin muu - 
tostiedot on esitetty siten, etta kxinkin rivin ensimmaiset numerot viittaavat saannol- 
lisen lausekkeen R 301 korvattaviin tokeneihin ja seuraavat numerot esimerkkilau- 
sekkeen E 302 korvaaviin tokeneihin. Lisaksi editointiskripti D 303 sisaltaa niiden 
tokenien sisallon, joissa muutoksia tapahtuu. Kuvan 3 editointiskriptin D 303 mu- 

25 kaisesti saannollisen lausekkeen R 301 tokeni R[2] muutetaan vastaamaan esimerk- 
kilausekkeen E 302 tokeneja E[2] ja E[3]. Saannollisen lausekkeen R 301 tokenit 
R[5] ja R[6] on korvattava esimerkkilausekkeen E 302 tokenilla E[6]. Kaikki muut- 
tuvat tokenit on kuvassa ilmaistu katkoviivanuolella ja samana pysyvat, toisiaan 
vastaavat tokenit on kuvattu yhtenaisella nuolella. 

30 Seuraavaksi muodostetaan uusi saannollinen lauseke R' 304 siten, etta muuttumat- 
tomat tokenit sailyvat saannollisessa lausekkeessa R 301 ennallaan ja kaikki esi- 
merkkilausekkeesta E 302 eroavat, editointiskriptin mukaisen muutostiedon mukaan 
muuttuvat, katkoviivanuolella merkityt tokenit korvataan jokerimerkilla, joka tassa 
esimerkissa on *. Uudeksi esimerkkilausekkeeksi E' 305 merkitaan seuraava kaytta- 

35 jan syottama esimerkki, minka jalkeen tuotetaan R' 304 ja E' 305 valinen muutostie- 
to D' 306 Diff-vertailualgoritmin avulla. Diff-vertailualgoritmin palauttamasta edi- 
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tointiskriptista D' 306 luetut muutokset on merkitty katkoviivanuolilla ja R':n 304 ja 
E':n 305 muuttumattomat tokenit on yhdistetty yhtenaisella nuolella. Lisaksi edi- 
tointiskriptin toinen muutostieto koskee tokenia R[4], jolla ei ole vastinetta esi- 
merkkilausekkeessa E' 305. Talloin tokeni R[4] korvataan tyhjalla ja seuraavaa 
5 saannollista lauseketta muodostettaessa sita kasitellaan kuten muitakin korvattavia 
tokeneja. Muodostetussa saannollisessa lausekkeessa R" 307 ovat jaljella muuttu- 
mattomat tokenit R[l], R[3], R[7] ja R[8]. Kaikki muuttuneet tokenit on korvattu 
valitulla jokerimerkilla *. Taman jalkeen saannollisesta lausekkeesta R" 307 poiste- 
taan perakkaiset jokerimerkit (ei esitetty kuvassa) siten, etta vain ensimmaiset niista, 

10 jaavat jaljelle. Esimerkki lausekkeessa R" 307 on nyt nelja kenttaerotintokenia, joi- 
den valiin muodostuu kaksi eri kenttaa. Ensinunainen varsinaista tietosisaltoa sisal- 
tava kentta on tokenien R[l] ja R[3] valissa ja toinen kentta sijaitsee tokenien R[3j 
ja R[7] valissa. Kenttaerottimet R[7] ja R[8] esiintyvat perakkain ja muodostavat 
taman saannollisen lausekkeen loppumerkin. Taman jalkeen saannollinen lauseke 

15 R" 307 on valmis ja voidaan esimerkiksi lisata osaksi irrotusskriptia. 

Mikali jossakin esimerkkilausekkeessa ei ole mitaan rakennetta, edella selostettu 
toiminta johtaa siihen, etta saannollinen lauseke R" on lopulta pelkka yksi jokeri- 
merkki. Talloin tuloksena syntyva muunnoskripti irrottaa koko sen data-alueen, jo- 
hon irrotussaannostoa yritetaan soveltaa. Irrotuksen tuloksena kaikki irrotettu tieto 
20 sijaitsee yhden irrotetun data-alueen yhden tietueen yhdessa kentassa. 

Koodingenerontisovelluksen koodingenerointikomponentti (102) tuottaa koodikieli- 
sen irrotusskriptin, jonka pohjalta varsinainen irrotuskomponentti suorittaa valikoi- 
vaa tietojen irrotusta sisaan tulevasta datasta. Edullisesti irrotusskripti tuotetaan jol- 
lain tunnetulla koodikielella sovelluksesta riippuen. Edullisesti koodingenerointiso- 

25 vellus toimii kaikissa Java 1.2.2 tai sita uudemmissa versioissa. Tulosteena saadaan 
irrotetut tiedot koodikielisen skriptin maarittamassa muodossa ja jarjestyksessa. 
Tassa esimerkinomaisesti mainittu DEL (Data Extraction Language) -kieli on tehty 
nimenomaan ja ainoastaan tiedon irrotusta varten, mutta se ei millaan tavoin rajoita 
keksintoa kayttamaan vain tata tiettya kielta, vaan edullisesti voidaan kayttaa esi- 

30 merkiksi Perl-, Python-, REBOL- tai OmniMark-suorittirnia. Kieli toimii formaatin 
konvertoijan tavoin eli se ei irrota esimerkiksi lauseen subjektia, vaan toimii sym- 
bolitasolla. Saannollisiin lausekkeisiin pohjautuvien irrotussaantojen muokkaami- 
seen on oma editorinsa, joka riippuu kulloinkin tiedon irrotukseen kaytettavasta 
komponentista. Irrotettava tietokentta on merkkijono, joka voidaan skriptia muok- 

35 kaamalla asettaa siirrettavaksi haluttuun kohtaan koodingenerointisovelluksen irro- 
tuskomponentin (104) tuottamaa tulosdataa. 
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Koodingenerointisovellus voi kayttaa tiedon nayttamiseen ja tiedosta valintojen te- 
kemiseen lahes mita hyvansa selainta. Selaimelta edellytetaan, etta sen datan lataa- 
miseen (tiedoston/tietovirran avaaminen/sulkeminen), esittamiseen ja valitsemiseen 
liittyva toiminnallisuus on jonkinlaisen ohjelmointirajapinnan kautta ohjattavissa ja 
5 saadeltavissa, ja etta kaikki tiedot kayttajan tekemista valinnoista saadaan heti tapah- 
tumahetkella koodingenerointisovelluksen kaytettavaksi. Kaytetysta selaimesta riip- 
puu, miten ja millaisia osia jatkuvasta tietovirrasta esitetaan kayttajalle. On myos 
mahdollista kayttaa useampia selaimia yhtaaikaisesti siten, etta esimerkiksi kulloin- 
kin kasiteltava lahdedata sijaitsee omassa selaimessaan, valitut esimerkit ovat talle- 
10 tettuna toisessa selaimessa ja tiedon iirotuksen tulosten esikatselu kayttaa kolmatta 
selainta. 

Tiedon irrotussaantdjen generointi seka tiedon irrotus ja konversio haluttuun kohde- 
formaattiin haluttaessa voidaan toteuttaa palveluna verkon yli. Talloin joko koodin- 
generointikomponentti, irrotuskomponentti tai molemmat voivat sijaita palvelimella 
15 muun sovelluksen toimiessa kayttajan tyoasemalla. 

Sovelluksen suorituksen tuloksena saadaan siis halutun sisaltoinen tietopakettL 
Kayttajan ei tarvitse osata ohjelmoida tai muuntaa sovellusta, vaan han saa esi- 
merkkiensa mnkaisen tuloksen mista hyvansa haluamastaan lahdedatasta. Saatuja 
tietoja voidaan edelleen jalostaa, tilastoida ja julkaista yhtaaikaisesti eri mnodossa 

20 kayttaen ulkoisia sovellusohjelmia. Sovelhis on tehokas ja monipuolinen. Se on hel- 
posti siirrettavissa ja yllapidettavissa nykyisissa laitteistoissa, koska edullisen suori- 
tusmuodon mnkaisesti kaytetty Java-pohjainen DEL-suoritin on helposti integroita- 
vissa eri systeemeihin. Edullisesti sovelluksen kayttoliittyma toimii esimerkiksi 
Windows 2000/NT-ymparistossa, johon on asennettu Microsoftin Internet Explorer- 

25 selaimen versio 5 tai jokin uudempi ratkaisu. Lisaksi koodingenerointisovellus on 
mukautuva ja helposti uudelleen kaytettavissa ihan uudenlaisenkin lahdemateriaalin 
kanssa. 
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Patenttivaatimukset 

1. Menetelma tietyssa alkuperaisessa datassa sijaitsevan tiedon kasittelemiseksi, 
tunnettu siita, etta menetelma sisaltaa vaiheet, joissa 

- osoitetaan vahintaan kaksi esimerkkitapausta (301, 302), 

5 - osoitettujen esimerkkitapausten (301, 302) perusteella muodostetaan saannosto 

(103) halutunlaisen tiedon irrottamiseksi, ja 

- muodostetun saannoston mukaiset data-alueet alkuperaisesta tietueesta irrotetaan 

(104) . 

2. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta irrotetut data- 
10 alueet muunnetaan formaatiltaan yhtenaisiksi (105). 

3. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta osoitetuilla 
vahintaan kahdella esimerkkitapauksella on kullakin rakenne ja sisalto, jolloin ra- 
kenne on esimerkkitapausten valilla samanlainen mutta sisalto on erilainen. 

4. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta esimerkkita- 
1 5 paukset osoitetaan alkuperaisesta datasta (101). 

5. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta esimerkkita- 
pausten (301, 302) perusteella muodostettu saannosto (103) tallennetaan myohem- 
paa kayttoa varten. 

6. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta osoitetut esi- 
20 merkkitapaukset tokenisoidaan (20 1) ennen niiden varsinaista kasittelya korvaamalla 

tietyt esimerkkitapausten osiot niita vastaavilla tietorakenteilla, jotka sisaltavat tun- 
nisteen, kuten tyyppimerkinnan tai nimen, seka kyseisen osion datasisallon. 

7. Patenttivaatimuksen 6 mukainen menetelma, tunnettu siita, etta osoitetuissa 
vahintaan kahdessa esimerkkitapauksessa (301, 302) on vahintaan yksi samanlainen 

25 osio, jota esimerkkitapausten kasittelyssa vastaa tietty tokeni. 

8. Patenttivaatimuksen 6 mukainen menetelma, tunnettu siita, etta saannoston 
muodostamiseksi 

- pisin osoitetuista tokenisoiduista esimerkeista merkitaan saannolliseksi lausek- 
keeksiR(203, 301), 

30 — seuraavaksi pisinta osoitetuista tokenisoiduista esimerkeista merkitaan esimerkki- 
lausekkeeksi E (204, 302) ja 
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- verrataan saannollista lauseketta R (203) ja sen hetkista esimerkkilausetta E 
(204). 

9. Patenttivaatimnksen 8 mukaiiien menetelma, tunnettu siita, etta saannollista 
lauseketta R ja sen hetkista esimerkkilauseketta E vertaillaan tietyn vertailualgorit- 

5 min avulla (205), joka palauttaa editointiskriptin D (206, 303, 306). 

10. Patenttivaatimuksen 9 mukainen menetelma, tunnettu siita, etta saannollista 
lauseketta R ja sen hetkista esimerkkilauseketta E vertaillaan sellaisen vertailualgo- 
ritmin avulla (205), joka palauttaa lyhimman mahdollisen editointiskriptin. 

11. Patenttivaatimuksen 9 mukainen menetelma, tunnettu siita, etta saannoston 
10 muodostamiseksi saannollista lauseketta R muunnetaan editointiskriptin D (207) si- 

saltamien muutostietojen pohjalta. 

12. Patenttivaatimuksen 8 mukainen menetelma, tunnettu siita, etta muodostettu 
saannollinen lauseke muodostaa saannoston (211). 

13. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta muodostetun 
15 saannoston avulla alkuperaisesta datasta irrotetaan esimerkkitapausten mukaiset 

osiot (104). 

14. Laitteisto tietyssa alkuperaisessa datassa sijaitsevan tiedon kasittelemiseksi 
tunnettu siita, etta laitteisto sisaltaa valineet 

- vahintaan kahden esimerkkitapauksen (301, 302) osoittamiseksi alkuperaisesta 
20 datasta (101), 

- saannoston muodostamiseksi osoitettujen esimerkkitapausten (301, 302) perus- 
teella halutunlaisen tiedon irrottamiseksi, ja 

- muodostetun saannoston mukaisten data-alueiden irrottamiseksi (104) alkuperai- 
sesta lahdemateriaalista. 

25 15. Patenttivaatimuksen 14 mukainen laitteisto, tunnettu siita, etta siina on vali- 
neet irrotettujen osioiden muuntamiseksi formaatiltaan yhtenaisiksi (105). 

16. Patenttivaatimuksen 14 mukainen laitteisto, tunnettu siita, etta esimerkkita- 
pausten osoittamista varten laitteistossa on osoittimet merkkijonoihin. 

17. Patenttivaatimuksen 14 mukainen laitteisto, tunnettu siita, etta laitteisto sisal- 
30 taa valineet osoitettujen esimerkkien tokenisoimiseksi korvaamalla tietyt esimerkki- 
tapausten osiot niita vastaavilla tietorakenteilla, jotka sisaltavat tyyppimerkinnan tai 
nimen seka kyseisen osion datasisallon. 
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18. Patenttivaatimuksen 17 mukainen laitteisto, tunnettu siita, etta laitteisto sisal- 
taa valineet tokenisoidun datan kasittelemiseksi. 

19. Patenttivaatimuksen 14 mukainen laitteisto, tunnettu siita, etta laitteisto sisal- 
taa valineet saannoston muodostamiseksi muodostetun saannollisen lausekkeen R 
mukaisesti. 

20. Patenttivaatimuksen 19 mukainen laitteisto, tunnettu siita, etta valineet saan- 
noston muodostamiseksi sisaltavat tata tarkoitusta varten luodim ohjelmistokompo- 
nentin (102), joka on erillaan sellaisesta ohjelmistokomponentista (104), joka on 
tarkoitettu data-alueiden irrottamiseen muodostettua saannostoa kayttaen. 



(57) Tiivistelma 



Keksinto koskee sellaisten saantojen muodostamismene- 
telmaa, jonka avulla tietoa voidaan ryhmitella uudelleen. 
Lisaksi keksinto koskee jarjestelya tallaisen menetelman 
toteuttamiseksi. Keksinnon tavoitteena on tuottaa menetel- 
ma ja jarjestely, joilla ohjelmointitaidotonkin kayttaja voi 
muodostaa lahdedatasta valitsemilleen data-alueille irrotus- 
saannot. Kyseessa olevassa menetelmassa alkuperaisessa 
datassa olevaa tietoa kasitellaan siten, etta alkuperaisesta 
lahdedatasta (101) kayttaja valitsee vahintaan kaksi esi- 
merkkitapausta (301, 302). Osoitettujen esimerkkitapausten 
perusteella muodostetaan saannosto (103), jonka mukaiset 
data-alueet alkuperaisesta lahdedatasta irrotetaan (104). Ir- 
rotettuja data-alueita (105) voidaan jatkokasitella halutulla 
tavalla. 
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